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Рассмотрен метод построения адаптивных систем управления, в основе функционирования которых лежит метод обучения с 
подкреплением. Описано программное средство для моделирования и исследования таких систем управления. Предложен спо- 
соб применения искусственных нейронных сетей для представления функции оценки воздействия. 


В рамках классической теории автоматического 
управления при создании систем автоматического 
управления необходимо иметь точную математиче- 
скую модель объекта управления (ОУ). Во многих 
реальных задачах построение такой модели либо 
невозможно, либо требует проведения трудоёмких 
исследований. При этом параметры ОУ могут изме- 
няться в широких пределах в процессе функциони- 
рования системы, либо иметь большой разброс зна- 
чений от образца к образцу. В таких случаях регуля- 
торы с постоянными настройками не всегда могут 
обеспечить требуемое качество работы системы. В 
связи с этим актуальной является проблема постро- 
ения систем автоматического управления, способ- 
ных приспосабливаться к изменяющимся или неиз- 
вестным параметрам ОУ. В данной статье рассма- 
триваются адаптивные системы автоматического 
управления, в основе функционирования которых 
лежит метод обучения с подкреплением, также на- 
зываемый методом подкрепляемого обучения. 

Метод подкрепляемого обучения является до- 
статочно новым методом в группе методов машин- 
ного обучения и занимает промежуточное положе- 
ние между методами обучения с учителем и без 
учителя. В основе метода обучения с подкреплени- 
ем лежат те основополагающие принципы адап- 
тивного поведения, которые позволяют живым ор- 
ганизмам приспосабливаться к изменяющимся 
или неизвестным условиям обитания. Метод об- 
учения с подкреплением ( Яеіп/огсетепі Ьеагпщ) 
был представлен и подробно изложен в [1]. В дан- 
ном методе в обобщенном виде рассматривается 
взаимодействие агента с внешней средой, в резуль- 
тате которого агент путем проб и ошибок самостоя- 
тельно определяет наиболее оптимальное поведе- 
ние для достижения максимума некоторого крите- 
рия. Отличительной чертой метода обучения с под- 
креплением является наличие сигнала подкрепле- 
ния, который получает агент в процессе взаимо- 
действия с внешней средой и который является 
скалярной величиной, характеризующей, насколь- 
ко «хорошо» функционирует агент в данный мо- 
мент времени. Целью функционирования агента 
является максимизация суммарного сигнала под- 
крепления, которое получит агент при взаимодей- 
ствии с внешней средой. В исходном виде метод 
обучения с подкреплением предполагает конечное 
количество состояний внешней среды и возмож- 


ных воздействий агента на внешнюю среду, а также 
взаимодействие агента с внешней средой в дис- 
кретные моменты времени. 

Указанные ограничения не позволяют свободно 
использовать метод обучения с подкреплением в 
задачах автоматического управления, т. к. сигналы 
в системах управления обычно являются непре- 
рывными как по уровню, так и во времени. Тем не 
менее, указанный метод был успешно применен в 
системах управления тележкой с шестом [2], робо- 
том, который учится плавать в водной среде [3], и 
перевернутым маятником [4] . 

На основе метода подкрепляемого обучения ав- 
тором данной статьи была разработана структурная 
схема обобщенной системы автоматического упра- 
вления, функционирующей на основе метода об- 
учения с подкреплением (МОП-САУ), и алгорит- 
мы работы структурных блоков. Структурная схема 
МОП-САУ показана на рис. 1. 

Входящий в состав МОП-САУ ОУ должен удо- 
влетворять следующим условиям: 

1) ОУ является одномерным, т. е. имеет один вход 
и один выход; 

2) в любой момент времени можно измерить век- 
тор переменных состояния ОУ. Под перемен- 
ными состояния ОУ подразумеваются сигналы, 
которые вместе с управляющим воздействием и 
однозначно определяют значение выходной ве- 
личины у в будущие моменты времени. 

Вектор входных сигналов устройства управле- 
ния (УУ) состоит из задающего воздействия §, ско- 
рости изменения задающего воздействия §', выход- 
ной величины у и вектора переменных состояния 
ОУ х. В результате обработки вектора входных сиг- 
налов УУ формирует управляющее воздействие и, 
значение которого является одним из элементов за- 
ранее определенного дискретного множества воз- 
можных воздействий А. Под действием управляю- 
щего воздействия и ОУ изменяет свое состояние. 

Вектор входных сигналов поступает на вход им- 
пульсного элемента (ИЭ), который осуществляет 
дискретизацию по времени входных сигналов. 
Дискретизация по времени необходима в связи с 
тем, что метод обучения с подкреплением предпо- 
лагает взаимодействие агента с внешней средой в 
дискретные моменты времени. На выходе ИЭ фор- 
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Рис. 1 . Структурная схема МОП-САУ 


мируется вектор дискретных сигналов р, который 
поступает на анализирующее устройство (АУ) и на 
квантователь 0. АУ определяет значение сигнала 
подкрепления г, а квантователь определяет значе- 
ние сигнала состояния внешней среды которое 
является одним из элементов заранее определен- 
ного множества возможных состояний внешней 
среды У. Экстраполятор (ЭК) переводит дискрет- 
ный сигнал а, сформированный блоком «Агент» 
как воздействие на внешнюю среду, в непрерывное 
по времени управляющее воздействие на ОУ а. 

Наличие в векторе входных сигналов производ- 
ной входного воздействия §' и вектора переменных 
состояния ОУ х является следствием того, что в со- 
ответствии с методом обучения с подкреплением 
сигналы подкрепления и состояния внешней сре- 
ды должны обладать свойством марковости. Нес- 
мотря на это требование, в [1] подтверждено, что 
метод может быть успешно применен и в том слу- 
чае, когда сигналы подкрепления и состояния вне- 
шней среды не обладают свойством марковости. 

Блок «Агент» является системой, функциони- 
рующей на основе метода обучения с подкреплени- 
ем, и функционирует в дискретные моменты вре- 
мени /=0,1,2,..., называемые тактами. В каждый 
момент времени / блок получает информацию о со- 
стоянии внешней среды 5, и на основе этой инфор- 
мации вырабатывает некоторое действие а,ей(5,), 
где А(Х/) — множество действий, которые блок мо- 
жет выработать при текущем состоянии внешней 
среды 5,. В следующий дискретный момент време- 
ни /+ 1 блок получает оценку г і+1 , которая характе- 
ризует его действия на предыдущем такте, и на вход 
блока поступает информация о новом состоянии 
внешней среды я т . Целью функционирования бло- 
ка «Агент» является максимизация суммарной 
оценки управления [1] 

со 

Я, = ^ч. + 7 А+2 + Г А + з + ••• = X/ ' (•-*+!> 

к = О 

где параметр уе[0,1] называется параметром ди- 
сконтирования оценки управления и выбирается 
таким образом, чтобы величина Д сходилась. 


Для блока «Агент» внешней средой является не 
только ОУ, но и другие блоки УУ. Блок «Агент» со- 
стоит из двух блоков: устройства управления 
объектом (УУО) и устройства управления адапта- 
цией (УУА). УУО формирует воздействие а, на ос- 
нове информации о текущем состоянии внешней 
среды 5, с использованием функции оценки воздей- 
ствия, которая также называется 0-функцией [1]. 
УУА осуществляет коррекцию 0-функции на осно- 
ве анализа текущего состояния внешней среды 5,- и 
значения сигнала подкрепления г, как результата 
воздействия на внешнюю среду на предыдущем 
такте. Эта функция имеет два аргумента: текущее 
состояние внешней среды .у, и некоторое воздей- 
ствие а, которое управляющее устройство (УУ) мо- 
жет сформировать при у,. Значение 0(у ( ,а) является 
суммарной оценкой управления, которую получит 
блок в будущем, если на текущем такте / сформиру- 
ет воздействие а (т. е. а,=«). Таким образом, чтобы 
достичь цели функционирования при точно опре- 
деленной 0-функции и при состоянии внешней 
среды достаточно выбрать такой элемент а из 
множества Ду,), который соответствует максимуму 
функции 0(у„й): 

а, = аг§тах 0( х.,а). 

аеЛ 

В дискретной МОП-САУ 0-функция предста- 
вляется в виде таблицы соответствия, то есть для 
каждого возможного состояния внешней среды и 
для каждого возможного воздействия выделяется 
ячейка памяти, в которой хранится значение функ- 
ции для данных значений аргументов. Недостат- 
ком такого варианта представления 0-функции яв- 
ляется экспоненциальный рост объема требуемой 
памяти при увеличении количества переменных 
состояния ОУ, количества возможных воздействий 
или при увеличении количества уровней дискрети- 
зации входных сигналов УУ. В начале функциони- 
рования системы управления 0-функция задается 
произвольным образом и не содержит действитель- 
ных значений суммарных оценок управления. В 
процессе функционирования МОП-САУ 0-функ- 
ция корректируется, в результате её значения при- 
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ближаются к действительным суммарным оценкам 
управления. Процесс определения действительных 
значений 0-функции называется обучением систе- 
мы. Коррекция значений 0-функции в процессе 
обучения осуществляется с использованием алго- 
ритма обучения ТО(Я) [1]. 


На основе структурной схемы и алгоритмов 
функционирования МОП-САУ в среде програм- 
мирования Вогіапсі Беіркі было разработано про- 
граммное средство «Исследование КЬ-САУ», пред- 
назначенное для моделирования и исследования 
дискретных МОП-САУ. Программное средство по- 
зволяет задавать математическую модель ОУ в виде 
системы дифференциальных уравнений, опреде- 
лять вид и параметры задающего воздействия, за- 
давать параметры настройки УУ, управлять процес- 
сом моделирования, отображать на экране значе- 
ния всех моделируемых сигналов и их графики, 
определять значения показателей качества упра- 
вления, сохранять результаты моделирования в 
файлы. Главное окно разработанной программы 
показано на рис. 2. 


Задающее воздействие 


Управляющее устройство 


Объект управления 


Параметры моделирования 


Математическая модель объекта управления 



АЬРНА=0 . 98 
СА1ША= 0 . 9 
ЬАИВЕ*А=0 . 85 
ЕР5ІЬ0Н=0 . 01 


Изменить ОУ 


Рис. 2. Г павное окно программы «Исследование РІ-СА У» 


Ниже представлены результаты эксперимен- 
тальных исследований, осуществленных с помо- 
щью разработанного программного средства с дис- 
кретной адаптивной системой управления ОУ вто- 
рого порядка «Колебательное звено» с передаточ- 
ной функцией 


0,5/г +0,1/> + 1 


На рис. 3 показана переходная характеристика 
данного ОУ при единичном ступенчатом воздей- 
ствии. Сигнал у(1) - выходной сигнал ОУ. 

Для функционирования МОП-САУ необходи- 
мо установить значения параметров настройки УУ. 
Для проведения исследований были выбраны сле- 
дующие значения параметров настройки: количе- 
ство уровней квантования выходной величины - 
100, первой переменной состояния - 50, второй 
переменной состояния - 0, задающего воздействия 
- 50, производной задающего воздействия - 10, 
возможные значения управляющего воздействия: 
5, -5, 0, 15, -15. В качестве задающего воздействия 
был выбран прямоугольный импульсный сигнал. В 
эксперименте величина сигнала подкрепления 
равна 1-е 2 , где е - ошибка управления. Такое вы- 
ражение было выбрано в связи с тем, что максими- 
зация суммарной величины подкрепления приво- 
дит к минимизации величины е. Графики, характе- 
ризующие функционирование системы в начала 
периода обучения, показаны на рис. 4. В УУ отсут- 
ствует априорная информация о математической 
модели ОУ. На рисунке видно, что управляющее 
воздействие в начале функционирования форми- 
руется в основном случайным образом. По мере 
обучения в УУ определяются точные значения 
0-функции, что позволяет УУ формировать такие 
воздействия на ОУ, которые приведут к максимиза- 
ции суммарной величины подкрепления, что при- 
ведет к минимизации среднеквадратической 
ошибки управления. 

На рис. 5 показаны графики, характеризующие 
поведение системы в конце периода обучения, дли- 
тельность которого составила около 7 ч модельного 
времени. При компьютерном моделировании на 
персональном компьютере среднего класса 7 ч мо- 
дельного времени соответствуют около одной мину- 
те реального. На рисунке видно, что УУ «научилось» 
формировать такие воздействия, которые приводят 
к соответствию выходного сигнала задающему сиг- 
налу. Следует учесть, что максимальная амплитуда 
управляющего сигнала ограничена и не позволяет 
добиться идеального соответствия выходного и за- 
дающего сигналов. Также следует учесть, что коли- 
чество возможных значений управляющего воздей- 
ствия ограничено, что не позволяет УУ установить 
произвольное значение этого сигнала. В конце пе- 
риода обучения показатели качества управления, 
рассчитанные программным средством, достигли 
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Рис. 3. Переходная характеристика ОУ «Колебательное звено» 
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следующих значений: время регулирования 0,42 с; 
величина перерегулирования 4,9%; среднеквадрати- 
ческая ошибка управления 0,35. 



Рис. 4. Г оафики задающего воздействия, управляющего 
воздействия и выходной величины для ОУ «Колеба- 
тельное звено» в начале периода обучения 



Рис. 5. Г рафики задающего воздействия, управляющего 
воздействия и выходной величины для ОУ «Колеба- 
тельное звено» в конце периода обучения 


Результаты экспериментальных исследований 
дискретных МОП-САУ с линейными и нелинейны- 
ми ОУ второго порядка в программном средстве 
«Исследование КИ-САУ» показали приемлемое ка- 
чество управления и способность МОП-САУ адап- 
тироваться к изменяющимся параметрам ОУ. Недо- 
статком предложенного способа построения МОП- 


САУ является экспоненциальная зависимость объе- 
ма требуемой памяти для представления 0-функции 
от порядка ОУ и от количества уровней квантования 
сигналов. Эту особенность исследователи в области 
подкрепляемого обучения называют «проклятием 
размерности» [1]. При математическом моделирова- 
нии дискретных систем проблемы, связанные с 
большим объемом требуемой памяти, возникали 
для ОУ третьего и более высоких порядков. 

Экспериментальные исследования дискретных 
систем с различными ОУ показали, что 0-функции 
являются гладкими и непрерывными, что позволя- 
ет использовать для их представления функцио- 
нальные аппроксиматоры. Проблему экспонен- 
циального роста объема требуемой памяти предла- 
гается устранить за счет представления 0-функции 
на основе трехслойной искусственной нейронной 
сети (ИНС) прямого распространения. Так как для 
хранения значений параметров ИНС не требуется 
больших объемов памяти, их применение позволит 
решить указанную проблему. Кроме того, входные и 
выходные сигналы ИНС могут быть непрерывны- 
ми, что позволяет перейти от ограниченного мно- 
жества возможных состояний ОУ к непрерывному 
пространству состояний ОУ. Первый слой ИНС яв- 
ляется входным и содержит столько нейронов, 
сколько сигналов содержится в векторе входных 
дискретных сигналов р. Третий слой состоит из од- 
ного нейрона с линейной активационной функци- 
ей. Количество нейронов в среднем слое выбирает- 
ся в зависимости от количества нейронов во вход- 
ном слое. Изменение 0-функции осуществляется 
методом обратного распространения ошибки [5]. 

На рис. 6 слева показана поверхность дискрет- 
ной 0-функции системы управления ОУ «Маят- 
ник», который представляет собой шест, один из 
концов которого прикреплён шарниром к непо- 
движной точке (рис. 7). Шест может свободно вра- 
щаться в вертикальной плоскости. Управляющим 
воздействием является вращающий момент, кото- 
рый вращает шест вокруг неподвижной точки. Вы- 
ходной величиной объекта является угол отклоне- 
ния шеста от вертикального положения Ѳ. Целью 
управления является перевод маятника из исход- 
ного состояния в вертикальное положение выше 
оси вращения, когда угол Ѳ равен нулю. Математи- 
ческая модель ОУ представляется в виде системы 
дифференциальных уравнений второго порядка. 



Рис. 6. Поверхность О-функции: дискретной ( слева) и на основе ИНС ( справа) 



Рис. 7. Объект управления 
«Маятник» 
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Рис. 8. Изменение поверхности О-функции: без закрепления окрестности изменяемой точки (слева) и с закреплением (справа) 


С помощью дискретной 0-функции в матема- 
тическом пакете МаіІаЬ была обучена трехслойная 
ИНС, поверхность которой показана на рис. 6, 
справа. Среднеквадратическое отклонение значе- 
ний указанных 0-функций друг от друга составля- 
ет 0,85, что позволяет говорить о возможности ис- 
пользования ИНС для представления 0- функций. 
Применение ИНС позволяет не только устранить 
экспоненциальную зависимость объёма требуемой 
памяти от порядка ОУ, но также открывает возмож- 
ность создания непрерывных МОП-САУ. 

Использование нейронных сетей в МОП-САУ 
затрудняется тем, что коррекция значения 
0-функции на основе ИНС в одной точке приво- 
дит к изменению значений функции в других точ- 
ках. На рис. 8, слева, показана поверхность изме- 
нения 0-функции на основе ИНС при изменении 
значения функции в точке (0;0) на величину при- 
ращения 0,1. На рисунке видно, что изменению 
подверглись все точки 0-функции. Это связано с 
тем, что применение метода обратного распростра- 
нения ошибки приводит к изменению параметров 
связей между нейронами, которые участвуют в 
формировании значений функции при любых зна- 
чениях входных сигналов. С целью уменьшения 
влияния изменения значения 0-функции в одной 
точке на значения функции в других точках был 
применен следующий способ обучения ИНС: сов- 
местно с изменением значения 0-функции в этой 
точке осуществляется закрепление значений 
0 функции в нескольких точках из окрестности 
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этой точки. Закрепление осуществляется за счет 
применения метода обратного распространения 
ошибки с нулевой ошибкой. На рис. 8, справа, по- 
казана поверхность изменения 0-функции при ре- 
шении приведенной выше задачи указанным спо- 
собом. Результаты экспериментов показали, что 
применение такого способа итерационного обуче- 
ния ИНС позволяет значительно уменьшить вели- 
чину среднеквадратического отклонения значений 
функции в окрестности изменяемой точки от пер- 
воначальных значений. Например, для поверхно- 
стей, показанных на рис. 8, указанная величина 
уменьшилась с 3,6-10 3 до 2,4- 10' 5 . 

На основе метода обучения с подкреплением 
была разработана структурная схема дискретной 
МОП-САУ и алгоритмы функционирования 
структурных блоков, которые были реализованы в 
программном средстве «Исследование КЬ-САУ». 
Исследования линейных и нелинейных ОУ второго 
порядка подтвердили способность МОП-САУ до- 
стигать цели управления без априорной информа- 
ции о математической модели ОУ, а также при из- 
менении модели ОУ во время функционирования 
системы. В результате квантования входных сигна- 
лов уменьшается точность управления по сравне- 
нию с непрерывными системами управления, что 
затрудняет построение дискретных МОП-САУ для 
ОУ третьего и более высоких порядков. Для устра- 
нения этого недостатка предлагается представлять 
0-функции на основе ИНС. 
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